#aprendizaje por preferencia

Optimización de políticas sin valor mediante partición de recompensas

Descubre RPO, un método que elimina la función de valor en optimización de preferencias. Más estable, diverso y con menos toxicidad que DRO y KTO. Ideal para alinear LLMs.

2026-06-02 · 1 min

GFlowGR: Optimización de Sistemas de Recomendación Generativos con GFlowNets

GFlowGR utiliza GFlowNets para ajustar sistemas de recomendación, mitigando el sesgo de exposición. Mejora diversidad y precisión. Optimiza tu modelo.

2026-06-02 · 1 min

De señales 'débiles' a modelos fuertes: Agregación de deltas con LoRA

Agrega señales débiles de pares de modelos para mejorar LLMs potentes con fusión LoRA y alineación geométrica. Mejora razonamiento y búsqueda.

2026-06-02 · 3 min

Agregación de Deltas de Preferencia: de señales débiles a modelos fuertes

Aprende cómo el método PDA agrega señales débiles con fusión LoRA para mejorar LLMs en razonamiento y búsqueda.

2026-06-02 · 2 min

Aislando el sesgo léxico en LLM: métrica triangulada sin curación

Aprende sobre la métrica Triangulated Preference Shift que aísla sesgos léxicos inducidos por RLHF sin curación manual. Ideal para desarrollo de IA confiable.

2026-06-02 · 1 min

AdaDPO: Optimización Directa de Preferencias Auto-Adaptativa con Actualizaciones de Gradiente Equilibradas

2026-05-28 · 3 min